Analiza katastrof globalnych
1 Problem badawczy
Na świecie występuje wiele zagrożeń, które mają istotny wpływ na bezpieczeństwo ludzi. Można je podzielić na dwie główne kategorie:
Zagrożenia zależne od działalności człowieka – na przykład katastrofy ekologiczne, takie jak wycieki ropy naftowej spowodowane rozbiciem tankowców.
Zagrożenia naturalne – takie jak susze, powodzie, huragany i inne zjawiska przyrodnicze.
1.1 Cel analizy
Niniejsza analiza ma na celu zbadanie danych pochodzących z platformy EMDAT, aby lepiej zrozumieć charakter i skalę zagrożeń, z którymi mierzą się ludzie na całym świecie. W szczególności podjęte zostaną próby odpowiedzi na następujące pytania:
Które państwo lub region jest najbezpieczniejszy do życia pod względem występowania katastrof?
Które państwo lub region jest najbardziej narażone na występowanie katastrof?
Jakie typy katastrof najczęściej występują w określonych regionach?
Jakie są skutki katastrof dla mieszkańców poszczególnych regionów?
Jak wygląda historyczny kontekst skutków występowania katastrof?.
2 Opis zbioru danych
2.1 Pochodzenie danych
Dane wykorzystywane w analizie pochodzą z platformy EMDAT, która udostępnia informacje o wszystkich zarejestrowanych katastrofach na świecie. Zakres czasowy wybranych danych obejmuje lata 1999–2024.
2.2 Zawartość zbioru
Zbiór danych zawiera następujące informacje:
Typ zdarzenia – rodzaj katastrofy (np. powódź, huragan, trzęsienie ziemi) z podziałem na podtypy i podgatunki.
Data wystąpienia – dokładne informacje o czasie zdarzenia.
Region – lokalizacja geograficzna (kontynent, państwo, region).
Skutki – dane dotyczące strat materialnych i ludzkich.
2.3 Sposób pozyskania danych
Dane zostały pozyskane za pomocą funkcjonalnego API udostępnionego przez EMDAT. Proces wymagał zalogowania się na platformę oraz uzyskania odpowiedniej autoryzacji, co umożliwiło selekcję i pobranie potrzebnych informacji bezpośrednio z systemu EMDAT.
3 Plan analizy
W dalszych częściach raportu zostaną szczegółowo omówione zmienne zawarte w zbiorze danych, a także przeprowadzone zostaną analizy odpowiadające na wyżej wymienione pytania badawcze. Szczególna uwaga zostanie poświęcona:
Identyfikacji trendów w występowaniu katastrof.
Regionalnemu rozkładowi zagrożeń i ich skutków.
Oceny możliwości predykcji rodzajów katastrof.
Celem końcowym jest wypracowanie wniosków, które mogą wspierać strategie ograniczania skutków katastrof na poziomie lokalnym i globalnym.
3.1 Preprocessing i czyszczenie danych
Z uwagi na fakt że surowe dane nie są przedstawione w przystępnej formie, w związku z tym do dalejszej analizy wybierzemy z danych te kolumny które mają dla nas kluczową wartość i oczyścimy je do poziomu istotnych dla nas pred
4 Wizualizacje zbioru danych
Rodzaje katastrof wraz z ich liczebnością i podziałem na typ, kategorie i podkategorię
Wnioski do wizualizacji:
Większość aktualnych zagrożeń wynika z obszaru technologicznegio-> Człowiek powoduje samoistnie katastrofy klimatyczne, wpływając tym też na zagrożenia naturalne, tworząc efekty ekologiczne negatywne dla planety, np. efekt cieplarniany, dziury ozonowe etc.
Na przetrzeni 25 lat, znacząco częśc katastrof były biologiczne u któych podstaw była technologia!
Komentarz:
Na podstawie tej wizualizacji firmy ubezpieczeniowe mogłyby dostosować swoją ofertę do ubezpieczeń majątkowych, ustalając konrektene kwoty np. w danym państwie jeśli częścią wustępują tam powodzie niż pożary etc. Świadomość społeczna tego że ludzkie działania przyczyniają się do wyniczania planety może wiele zmienić, co możemy dokładnie zobaczyć na wyresie
Wnioski do wizualizacji:
- Widzimy ogólnie rzecz biorąc spadek występowania katastrof od począteku XXI wieku, lecz nasila się w obecnych czasach liczebność katastrof naturalnych. Być może, jest to spowodowane tym, że przez wiekszość czasu rozwijano przemysł technologiczny i zanieczyszczano planetę nie patrząc na skutki, i teraz gdy mamy wiele regularyzacji na temat funkcjonowania przedsiębiorstw, zostaje problem środowiska które zostało zanieczyszczone wcześniej.
Liczba katastrof w każdym państwie
Wnioski do wizualizacji:
Sumarycznie w Chinach dochodzi do największej liczby katastrof na przestrzeni lat. Po dokładnym zagłębieniu się w ten temat doszedłem do wniosku, że jest spowodowane położeniem tego państwa, przez co państwa azjatyckie (położene w sąsdiedztwie Chin) narażone są na wiele niebezpieczeństw, wysoka urbanizacja, aktywność sejsmiczna etc.
Ciekawym wnioskiem jest fakt że trzy państwa z największą liczbą katastrof to Chiny, USA, Indie. Jak powszechnie wiadomo, są to państwa z największą liczbą ludności 😉
Przechodząc do następnej wizualizacji
Wnioski z wizualizacji:
Oceania
- Dominują przez większośc czasu niszczące cyklony tropikalne, informacja może być pomocna dla architektów którzy planuja będą musieli budować konstrukcje solidniejsze na tego typu kataklizmy + oczywiście dla firm ubezpieczeniowych
Europa
- Można wnioskować że mieszkańcy Europy na przestrzeni lat mieli spore problemy z powodziami lecz, aktualnie przez zmiany klimatu najbardziej doskierwają niszczące upały.
Azja
- Widzimy jak następowały po sobie konkretne fale typów katastrof, dość jednostajni, największym problemem Azji jest prawidłowe przystosowanie się do walki z katastrofami wodnymi. Może to być pomysł na startup z pretekstem wyjazdy do Azji :)
Ameryki i Afryka
- Podobnie jak Azja, ze względu na podobne strefy klimatyczne, długośc i szerkośc geograficzną
Poniżej przedstawiono animowany wykres z liczbą ofiar katastrof na przestrzeni lat
Wnioski z wizualizacji:
- Nawiązując do poprzednich analiz wiemy że Chiny mają najwięcej katastrof, i właśnie przez takie położenie geograficzne mają wysoką aktywnośc sejsmiczną, co odzwierciedlenie w dużej liczbie zgonów spowodowanych trzęsieniami ziemi
Co Chiny mogą zrobić lepiej?
Zainwestować w AI służące do prognozowania trzęsień ziemi (Koło ATLAS może takie zrobić 😉) i rozważyć zmianę budżetu państwa z nastawieniem na lepsze systemy ostrzegania przed trzesieniem ziemi, i w pomoc medyczną osobom poszkodowanym
Poniżej przedstawiono wykres z średnim czasem trwania katastrof z podziałem na ich podtyp
Wnioski:
Średnio 2/3 roku Afryka jest dotknięta katastrofami, ich liczebnośc na podstawie wiemy że nie jest aż tak liczna, ale jeśli już się coś zjawi to trwa bardzo długo :(
Istnieje co najmniej jedna katastrofa która dotknełą Ameryki na 1/3 roku!
Najtrudniejsze do zwalczenia są katastrofy klimatyczne, na które możemy miecć tylko wpływ zapobiegawczy
W Europie najdłuższa katastrofa trwała 20 dni i była biologiczna
Grupą najdłużej trwających katastrof są klimatyczne katastrofy
Europa nie dość że nie ma wielu katastrof to jescze przechodzą dość szybko
5 Statystyki dla zbioru
Korelacje pomiędzy danymi
Wnioski na temat korelacji:
- Zmienne nie wykazują między sobą znaczących, czy też zaskakujących korelacji, wykazują oczywistę zależność pomiędzy liczbą ofiar a zgonami, co wydaje się dosyć oczywiste, tam samo zależność na temat kosztów
Test Chi-Kwadrat zależnośći kontynentu a typem katastrofy
Czym jest test Chi-Kwadrat?
Test chi-kwadrat służy do analizy zależności między zmiennymi kategorycznymi poprzez porównanie obserwowanych i oczekiwanych wartości.
\[ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} \]
\[ O_i- obserwowana ~wartość ~w ~i-tej ~kategorii \]
\[ E_i-oczekiwana~ wartość ~w ~i-tej ~kategorii. \]
Pearson's Chi-squared test
data: table_region_type
X-squared = 4704.4, df = 120, p-value < 2.2e-16
Wnioski:
- bardzo niska p value wskazuje na silną zależność między regionem a typem katastrofy, co potwierdza wcześniej stawiane wnioski przy wykresie bąbelkowym, więc odrzucamy hipotezę o niezależności regionu od typu katastrofy
W przeciwieństwie do liczby ofiar śmiertelnych, typy katastrof są zależne od kontynety, co wydaje się dosyć intuicyjne na podstawie położenia w innych strefach klimatycznych etc.
Test Kruskala-Wallisa dla liczby zgonów w zależności od kontynentu
Czym jest test K-W?
Test Kruskala-Wallisa to taki nieparametryczny odpowiednik ANOVA, stosowany, gdy dane nie spełniają założeń normalności. Analizuje mediany zamiast średnich.
\[ H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1) \]
\[ R_i-suma ~rang~ w ~i-tej ~grupie \]
\[ n_i- liczba ~obserwacji ~w ~i-tej~ grupie \]
\[ N- całkowita ~liczba ~obserwacji \]
Kruskal-Wallis rank sum test
data: Total.Deaths by Region
Kruskal-Wallis chi-squared = 1151.7, df = 4, p-value < 2.2e-16
Wnioski:
- Bardzo mała p-wartość wskazuje na wysoce statystycznie istotne różnice między regionami pod względem liczby zgonów. Dokładnie pomiędzy różnicami median.
Wszystkie testy miały na celu potwierdzić poprzednie wnioski na podstawie wizualizacji. Istnieje możliwość wykonania jeszcze testów post-hoc Dunn`a w celu dalszej analizy, lecz nie na tym miał się skupiać projekt więc statystyczną część projektu uważam za skończoną.
6 Uczenie maszynowe
6.1 PCA
Uczenie nienadzorowane - analiza gównych składowych
Czym jest PCA?
PCA to metoda redukcji wymiarowości, która transformuje dane na nową przestrzeń z osiami maksymalizującymi wariancję. Wynikiem są główne składowe.
Wzór na wariancję wyjaśnioną przez główną składową:
\[ \text{Variance Explained} = \frac{\lambda}{\sum \lambda} \]
\[ \lambda: wartość ~własna ~macierzy~ kowariancji ~lub ~korelacji \]
Wnioski na temat analizy głównych składowych:
- Analiza składowych głównych wskazuje, że regiony oraz typ katastrof (naturalne vs technologiczne) silnie różnicują dane.
- Deaths i Injured to główne zmienne, które wyjaśniają intensywność katastrof w ramach PC3.
- Poszczególne regiony (np. Europe w PC1 i Africa w PC4) mają różny wpływ na wyniki, co podkreśla ich specyficzne cechy w analizowanych danych.
Uczenie nadzorowane - klasyfikacja katastrofa Naturalna VS Technologiczna
Z uwagi na niezbalansowaną klasą posłużymy się metodą upsamplingu - SMOTE
Metoda ta bazując na podobieństwie cosinusowym tworzy syntetyczne próbki klasy mniejszościowej
6.2 Drzewo decyzyjne
Jak działa drzewo decyzyjne?
Opiera się na podziałach danych w celu maksymalizacji “czystości” węzłów.
Wzór na “czystość” węzła, tzw indeks Giniego
\[ G = 1 - \sum_{i=1}^{k} p_i^2\\ \]
\[ p_i- proporcja~obserwacji~ należących~ do~ klasy~i \]
Czym są krzywe ROC (Reciver Operating Characteristic)
najpierw wprowadźmy kilka definicji pomocniczych
Czułośc:
\[ \text{TPR} = \frac{\text{TP}}{\text{TP} + \text{FN}} \]
Specyficznośc
\[ \text{Specificity} = \frac{\text{TN}}{\text{TN} + \text{FP}} \]
Odsetek fałszywie pozytywnych tzw. FPR
\[ \text{FPR} = 1 - \text{Specificity} = \frac{\text{FP}}{\text{FP} + \text{TN}} \]
AUC - jest to pole pod krzywą (przydają się jednak te całki z analizy co nie :D?) które nam mówi o
dokładności klasyfikatora, na podstawie wcześniej podanych metryk
Warto dodać że przy ewaluacji modeli klasyfikacyjnych predykujących klasy niezbalansowane, warto jest zwrócić uwagę na takie metryki jak F1 score oraz Cohen Kappa :D
6.3 Regresja logistyczna
Co to takiego ta straszna regresja logistyczna?
Regresja logistyczna to metoda modelowania prawdopodobieństwa przynależności do określonej klasy. Wykorzystuje funkcję logistyczną tzw. sigmoidalną :D
\[ P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X_1 + \dots + \beta_p X_p)}} \]
6.4 Las losowy
Jak działa las losowy?
Las losowy to zespół drzew decyzyjnych, zgodnie z intuicją - kilka drzew tworzy las :) który dokonuje predykcji dzięki agregacji wyników wielu drzew (np. głosowanie większościowe).
\[ y' = majority~_~vote(T_1(x), T_2(x), \dots, T_m(x)) \]
\[ T_m(x): wynik~ m-tego~ drzewa \]
6.5 Podsumowanie zbudowanych modeli
Wnioski:
Modele drzewa decyzyjnego oraz lasu losowego wykazały wysoką skuteczność w klasyfikacji podstawowych kategorii katastrof. Dzięki analizie dendrogramu można łatwo zidentyfikować kluczowe predyktory, co czyni te modele nie tylko dokładnymi, ale również interpretowalnymi. Las losowy, jako bardziej zaawansowany model, może lepiej radzić sobie z problemami związanymi z nadmiernym dopasowaniem w porównaniu z pojedynczym drzewem.
Regresja logistyczna, choć ceniona za prostotę i możliwość interpretacji współczynników, nie poradziła sobie złożonością problemu. Niski wynik AUC sugeruje, że model nie jest w stanie dobrze rozróżniać kategorii katastrof na podstawie dostępnych danych, co wskazuje na ograniczoną zdolność do generalizowania w tym konkretnym kontekście.
Wyniki modeli sugerują, że mogłyby one być użyteczne w praktycznych sytuacjach, np. w przypadku służb ratunkowych. Mając ograniczone informacje, takie jak liczba rannych czy ofiar śmiertelnych, system oparty na tych modelach mógłby sugerować odpowiedni typ katastrofy. Na tej podstawie można by efektywnie alokować zasoby i szybko wezwać odpowiednie jednostki ratunkowe.
7 Podsumowanie
Odnosząc się do pytań postawionych sobie na samym początku projektu jesteśmy w stanie podać odpowiedźi na nurtujące nas pytania
Które państwo lub region jest najbezpieczniejszy do życia pod względem występowania katastrof?
- Państwa Europejskie cechują się największą bezpiecznością pod względem liczebności katastrof, więc w Polsce jesteśmy póki co bezpieczni
Które państwo lub region jest najbardziej narażone na występowanie katastrof?
- Są to Chiny, mimo wysokie poziomu życia i rozwiniętych technologi są narażone na duże niebezpieczeństwo z strony zagrożeń naturalnych i technologicznych
Jakie typy katastrof najczęściej występują w określonych regionach?
Europa - aktualnie możemy się borykać z falami ciepła - upałami
Oceania - niezmiennie tropikalne burze
Azja, Ameryki, Afryka - aktualnie może mieć problemy z powodziami
Jakie są skutki katastrof dla mieszkańców poszczególnych regionów?
Duża ilośc śmiertelnych ofiar w krajach narażonych na większą aktywność sejsmiczną
Straty finansowe związane głównie z tropikalnymi burzami
Mam nadzieje że po przeczytaniu tego raportu zrozumiemy w jakim stanie jest nasza planeta i będziemy żyli z świadomością działania w kierunku zapobiegania katastrofom
8 Dalsze kroki…
Projekt ten ma znaczący potencjał więc w przyszłości planuje zrobić aplikację w Streamlitcie do której podepnę model wielowyjściowy który będzie w stanie przewidywać na podstawie konkrentych predyktorów dokładnie czas trwania katastrofy, miejsce, skutki etc. na podstawie intregacji z bazami danych NASA, ewentualnie kilka modeli odpowiedzialnych za grupy predykcji.